Sesión 3: Técnicas cuasi-experimentales

Magíster en Métodos para la Investigación Social 2024

Autor/a

José Conejeros

Fecha de publicación

lunes 18 de noviembre, 2024

Facultad de Ciencias Sociales e Historia UDP
Click al repositorio

El estimador ingenuo

La diferencia simple de medias observadas para personas tratadas y no tratadas se llama el estimador ingenuo (Naive estimator) del efecto de un tratamiento:

\[\tau^{N} = E[Y_{1i}|T]- E[Y_{0i}|C]\] Donde:

  • \(E[Y_{1i}|T]\): Promedio del resultado bajo tratamiento para la persona \(i\) en el grupo de tratamiento
  • \(E[Y_{0i}|C]\): Promedio del resultado bajo control para la persona \(i\) en el grupo de control

¿Podemos observar ambos términos \(E[Y_{1i}|T]\) y \(E[Y_{0i}|C]\)?

Recuerde que el ATE: \[\tau^{ATE} = E[Y_{1i}] - E[Y_{0i}]\]

Usar el estimador ingenuo para obtener ATE asume entonces:

  • \(E[Y_{1i}]=E[Y_{1i}|T]\)
  • \(E[Y_{0i}]=E[Y_{0i}|C]\)

Esto no toma en cuenta cómo los individuos llegaron a pertenecer a esos grupos. Este supuesto implica que el estimador es ingenuo porque ignora el problema de selección.

El problema de la autoselección

La asignación a los grupos no es aleatoria, sino que depende de características observables o no observables de los individuos. Esto afecta la asunción de ignorabilidad o de independencia condicional, que requiere que el tratamiento sea independiente del potencial resultado.

  • El problema de selección se genera principalmente porque sólo podemos observar algunas personas bajo tratamiento

  • Las personas que participan en un programa son diferentes a aquellas que no participan

  • Las personas que participan en un programa son también diferentes a si mismas previo al inicio del programa

¿Ejemplos?

La pregunta clave detrás del problema de selección es: ¿Por qué estas personas fueron tratadas y otras no?

Problema de la autoselección

Bajo el problema de selección, los supuesto detrás del estimador ingenuo son cuestionables: Los resultados para los individuos no tratados son probablemente un mal estimador del estado contrafactual de estos mismos individuos.

Tenemos dos tipos de autoselección:

  • Selección en Observables: Participantes son diferentes a los no participantes en características observables, i.e. edad o nivel de educación. Estas características son medibles y por eso las llamamos observables.

  • Selección en No-Observables: Participantes son diferentes a los no participantes en características no observables, i.e. aversión al riesgo, habilidad inherente, motivación. En general no tenemos o no podemos medir estas variables y tenerlas en nuestros datos.

Métodos para abordar el problema de la autoselección

El estimador ingenuo tiene supuestos fuertes que no se sostienen y son comunes:

  • Comparar un mismo grupo antes y después del programa
  • Comparar en un mismo periodo personas en distintos grupos

¿Qué métodos utilizar para poder corregir este problema?

  • Selección en observables

    • OLS o MICO (control estadístico)
    • Matching y Propensity Score Matching
  • Selección en No-observables

    • Datos de panel y diferencias en diferencias
    • Variables instrumentales
    • Regresión discontinua

DAGS

Un DAG (Directed Acyclic Graph) es una representación gráfica utilizada en estadística causal para modelar relaciones de dependencia y causalidad entre variables.

  • Dirigido (Directed): Las flechas indican una dirección causal de una variable hacia otra (causa → efecto).

  • Acrónimo (Acyclic): No hay ciclos en el gráfico; es decir, no puedes empezar en un nodo y volver al mismo nodo siguiendo las flechas.

  • Nodos: Representan las variables.

  • Aristas (Edges): Representan relaciones causales directas entre variables.

  • Hay un camino directo desde D a Y que representa un efecto causal.

  • Pero también hay un segundo camino desde D a Y llamado el “camino de la puerta trasera”

  • Esto crea correlaciones espurias entre D y Y (sesgo por variable omitida)

Matching

Idea general

A veces sabemos que los resultados potenciales son independientes del tratamiento (D) condicional en ciertas características observables (X) \[(Y^1, Y^0) \perp \!\!\! \perp D | X\]

Esto quiere decir que el valor de \(Y^1\) e \(Y^0\) son iguales para tratamiento y control para cada valor de \(X\) \[E[Y^1|D=1, X]=E[Y^1|D=0, X]\]

\[E[Y^0|D=1, X]=E[Y^0|D=0, X]\]

Veamos un ejemplo de Tabaquismo y cancer de pulmón:

  • ¿Qué sugiere la Tabla?

  • ¿Creemos que \(E[Y^1|Cigarette)]=E[Y^1|Pipe)]=E[Y^1|Cigar)]\) y \(E[Y^0|Cigarette)]=E[Y^0|Pipe)]=E[Y^0|Cigar)]\)?

Considere que la gente mayor tiene mayor probabilidad de fumar pipa y puro:

  • Podemos condicionar en edad de tal manera que la distribución de edad sea idéntica en el grupo de tratamiento y control.

Subclassification: ¿Cuál es la mortalidad ajustada de los fumadores, de manera que tengan la misma distribución etaria de quienes fuman pipa y puro?

¿Qué variables deberíamos utilizar para este ajuste?

Supuestos de identificación causal

  • Independencia condicional: La asignación al tratamiento (\(D\)) es independiente de los resultados potenciales (\(Y^1, Y^0\)). Cualquier diferencia en los resultados entre tratados y no tratados puede explicarse completamente por las covariables \(X\), y no hay confusión residual. \[(Y^1, Y^0) \perp \!\!\! \perp D | X\]

  • Zona de soporte comun: Para cualquier valor de las covariables \(X\), existe una probabilidad positiva de estar en el grupo tratado (D=1) y en el no tratado (D=0). \[0<Pr(D=1|X)<1\]

A partir de estos dos supuestos podemos obtener la siguiente identidad: \[E[Y^1-Y^0| X]=E[Y|X,D=1]-E[Y|X, D=0]\]

Matching exacto

El estimador de Matching \(\hat \beta_{ATT}\) utilizando como contrafactual los resultados de individuos del grupo de control que son similares en sus observables.

Promedia la diferencia entre el resultado observado en los tratados y el promedio de los resultados emparejados de los no tratados. Estima el efecto del tratamiento específicamente en aquellos que recibieron el tratamiento.

\[\hat\beta_{ATT}=\frac{1}{N_T}\sum_{D_i=1}\left(Y_i\left[\frac{1}{M}\sum^M_{m=1}Y_{jm(1)}\right]\right)\] Calcula la diferencia promedio ponderada entre los tratados y no tratados ajustando por el contrafactual promedio. Estima el efecto promedio del tratamiento en toda la población, no solo en los tratados.

\[\hat\beta_{ATE}=\frac{1}{N_T}\sum^N_{i=1}(2D_i-1)\left(Y_i-\left[\frac{1}{M}\sum^M_{m=1}Y_{jm(1)}\right]\right)\]

Un ejemplo

  • ¿Cual es la edad promedio de los capacitados y de los no capacitados?

  • ¿Son comparables ambos grupos?

  • Haga un exact matching en edad, ¿Cuál es el impacto del programa?

La maldición de la dimensionalidad

En el ejemplo anterior era fácil encontrar un match con la misma edad, pero esto no es siempre así. A medida que crece el número de variables incluidas en \(X\), se hace cada vez más difícil encontrar parejas. A esto se le conoce como la maldición de la dimencionalidad.

Matching aproximado

  • En lugar de buscar parejas en el mismo estrato (con las mismas características), buscamos parejas con características similares

  • Una posibilidad es usar al vecino más cercano-

  • Si \(X\) es el ingreso de los padres, y una persona tratada tiene padres con ingresos de CLP1.123, su match puede ser la unidad de control cuyos padres tienen el ingreso más cercano a CLP1.123 (por ejemplo, CLP1.380)

  • También se puede usar los n vecinos más cercanos.

¿Qué pasa si \(X\) tiene varias dimensiones?

  • \(X\) podría incluir edad, ingreso de los padres, región, etc.

  • En estos casos no es obvia la manera de identificar al vecino más cercano

  • Para encontrar un match necesitamos definir una métrica de distancia

  • La más simple es la distancia euclideana: \[\begin{split}||X_i-X_j|| & = \sqrt{(X_i-X_j)'(X_i-X_j)} \\ & = \sqrt{\sum_{k=1}^K(X^k_i-X^k_j)^2}\end{split}\]

  • Otra métrica común es la distancia euclideana normalizada que le da un peso mayor a las dimensiones con menor varianza: \[\begin{split}||X_i-X_j|| & = \sqrt{(X_i-X_j)'\hat V^{-1}(X_i-X_j)} \\ & = \sqrt{\sum_{k=1}^K\frac{(X^k_i-X^k_j)^2}{\hat \sigma^2_k}}\end{split}\]

  • Finalmente, la distancia de Mahalanobis que normaliza usando la matriz de varianza-covarianza de \(X\): \[\begin{split}||X_i-X_j|| & = \sqrt{(X_i-X_j)'\hat \Sigma_X^{-1}(X_i-X_j)} \end{split}\]

Usando métricas como las anteriores, podemos identificar al vecino más cercano o a los \(n\) vecinos más cercanos-

Hay muchas otras medidas de distancia. Lo bueno es que ya hay paquetes y algoritmos programados para realizar esto.

Propensity Score Matching (PSM)

El propensity score es la probabilidad de recibir un tratamiento condicional en \(X\): \[p(X_i) = Pr(D_i=1|X_i)\] - Rosembaum & Rubin (1983) muestran que el propensity score es un balancing score, es decir: \[Pr(D_i=1|X_i,p(X_i))=Pr(D_i=1|p(X_i))\]

Implementación: podemos estimar en dos etapas:

  • En una primera etapa se estima el propensity score usando un modelo probit o logit.

  • En una segunda etapa, se hace un matching aproximado en base a \(\hat p(X_i)\)

  • El método sigue descansando en el supuesto de independencia condicional. Si el supuesto no se cumple, PSM no identifica efectos causales.

Ejemplo: NSW job-training program

  • El NSW fue un programa de capacitación laboral implementado en EE.UU. a mediados de los 70 y garantizaba empleo por 9 a 18 meses, además de sesiones de acompañamiento.

  • Los trabajadores recibían un sueldo algo menor que el de mercado, pero con posibilidades de aumentarlo en base a desempeño y asistencia. Luego de finalizado el período los trabajadores debían buscar empleo por su cuenta.

  • Los cupos del programa eran limitados y se asignaron en forma aleatoria, lo que permitió una evaluación experimental.

  • El programa aumentó el ingreso de los participantes entre USD900 (Lalonde, 1986) y USD1.800 (Dehejia and Whaba, 2002).

Lalonde (1986) aprovechó la disponibilidad de este experimento para comparar los resultados experimentales con otros métodos no-experimentales que se usaban comúnmente en la época. Además del grupo de control experimental, Lalonde construyó otros grupos de comparación usando datos de la Current Population Survey (CPS) y de la Panel Survey of Income Dynamics (PSID). A partir de estas muestras el paper compara los resultados experimentales (insesgados) con resultados no experimentales.

El resultado de Lalonde se recibió como una alerta para la interpretación de estudios no-experimentales y el paper empujó el desarrollo de evaluaciones experimentales.

Dehejia & Wahba (1999) señalaron que cuando uando existe sesgo de selección, es común que las características de base difieran entre individuos tratados y no tratados. Ellos llamaron la atención sobre el hecho de que los grupos de comparación no experimentales utilizados por Lalonde diferían considerablemente del grupo de tratamiento, lo que podría sesgar sus resultados.

Sabemos que la diferencia simple de medias entre tratados y no tratados es problemática producto del sesgo de selección: \[E[Y^0_i|D_i=1]\neq E[Y^0_i|D_i=0]\] ¿Por qué podríamos tener sesgo de selección en el caso del programa de capacitación NSW?

Usando los mismos datos que Lalonde (1986) (además de otras muestras), Dehejia & Wahba (1999) re-estimaron el efecto del programa usando propensity score.

Balance usando la muestra de matches:

Estimaciones:

Propensity Score Weighting

Figura realizada por Estrin (2021):

El estimador de propensity score weighting para el ATT es el siguiente:

\[\hat\tau_{att}^{psw} = \frac{1}{N_T}\sum_iY_i\cdot \frac{D_i-P(X_i)}{1- P(X_i)}\]

  • En este caso, las unidades tratadas reciben una ponderación de 1.

  • Las unidades no tratadas, por su parte, reciben una ponderación \(\frac{P(X_i)}{1-P(X_i)}\).

  • A nivel intuitivo, la idea es que luego de la ponderación, el grupo de comparación sea similar al grupo de tratamiento.

  • Para esto se da mayor ponderación a unidades que son “escasas” en el grupo de control en comparación con el grupo de tratamiento.

Consideraciones finales

  • La popularidad del matching depende bastante de la disciplina.La mayoría de los académicos son escépticos de que el supuesto de CIA se cumpla en la práctica.

  • En general los economistas (y las ciencias sociales en general) están más preocupados de la selección en no observables que la selección en observables, por lo que en la práctica debemos evaluar cada caso en particular para decidir si es razonable el supuesto de CIA.

Variables instrumentales (IV)

Intuición

Supongamos que nos interesa estudiar el efecto causal de \(x\) sobre \(y\), representado por \(\beta\) en la siguiente regresión: \[y_i = \alpha + \beta x_i +\varepsilon_i\]

Sabemos que el estimador \(\beta\) en OLS identifica: \[\begin{split}\hat \beta_{ols} & =\frac{Cov(y_i, x_i)}{Var(x_i)} = \frac{Cov(\alpha + \beta x_i + \varepsilon_i , x_i)}{Var(x_i)} \\\\& = \frac{\beta Var(x_i)+Cov(\varepsilon_i,x_i)}{Var(x_i)}=\beta+\frac{Cov(\varepsilon_i,x_i)}{Var(x_i)}\end{split}\]

Para que \(\hat \beta_{ols}\) identifique el verdadero \(\beta\), es necesario suponer que \(x_i\) es exógena, esto es: \[Cov(x_i,\varepsilon_i)=0\]

Problema

Si tenemos selección sobre no observables, entonces no contamos con una estrategia de condicionamiento que nos permita estimar efectos causales.

\[Cov(x_i,\varepsilon_i)\neq0\]

Fuentes de endogeneidad:

  • Variables omitidas: una variable no observada afecta de forma simultánea a \(y_i\) y \(x_i\)

  • Error de medición: la variable \(x_i\) se mide con error

  • Causalidad inversa: hay una relación causal entre \(y_i\) y \(x_i\)

En este caso podemos utilizar variables instrumentales: una fuente de variación exógena… alguna variable que afecte a \(x_i\) pero que no se relacione con \(\varepsilon_i\).

En estos casos podemos utilizar variables instrumentales:

  • Una variable instrumental \(Z\) que afecta a \(D\)

  • \(Z\) afecta a \(Y\) “sólo a través” de \(D\)

  • \(Z\) es independiente de las variables que determinan \(Y\) excepto \(D\) (“restricción de exclusión”)

Las variables instrumentales sólo identifican un efecto causal para cualquier grupo de unidades cuyos comportamientos cambien como resultado del instrumento (cumplidores).

Buenos instrumentos

Sólo se puede contemplar la identificación de un efecto causal mediante variables instrumentales si se puede defender teórica y lógicamente el supuesto de restricción de exclusión (no es comprobable).

  • Buscar buenos instrumentos en general es difícil

  • ¿Qué buen instrumento podemos usar para identificar el efecto causal del número de hijos sobre la participación laboral femenina?

Una condición necesaria pero no suficiente para tener un instrumento que pueda satisfacer la restricción de exclusión es que las personas se sientan confundidas cuando se les informa acerca de la relación del instrumento con el resultado.

¿Qué pensarían si les dijeras que las madres cuyos dos primeros hijos son del mismo género tienen menos empleo fuera del hogar que aquellas cuyos dos hijos tienen una proporción de sexos equilibrada?

Efectos de tratamiento homogéneos

Sea el verdadero modelo de los ingresos a partir de la escolaridad: \[Y_i=\alpha + \beta S_i + \gamma A_i + \varepsilon_i\]

Con \(A=E[A_i]\) y \(E[\varepsilon_i|s_i]=E[\varepsilon_i]=0.\)

  • \(Y_i\) es el registro de los ingresos
  • \(S_i\) es la escolaridad medida en años
  • \(A_i\) es la “habilidad o capacidad” individual
  • \(\varepsilon\) es un término de error no correlacionado con la escolaridad o la capacidad.

La habilidad es una variable no observada, por lo que tenemos la siguiente ecuación: \[Y_i=\alpha + \beta S_i + \nu_i\]

Donde \(\nu_i=\gamma A_i + \varepsilon_i\)

A partir de OLS podemos obtener el siguiente estimador para \(\beta\): \[\hat \beta_{ols}=\frac{Cov(Y_i, S_i)}{Var(S_i)} = \frac{Cov(\beta S_i + \gamma A_i, S_i)}{Var(S_i)} = \frac{\beta Var(S_i)+Cov(A_i,S_i)}{Var(S_i)}=\beta+\frac{Cov(A_i,S_i)}{Var(S_i)}\]

Para que \(\hat \beta_{ols}\) identifique el efecto marginal de un año de educación \(S\), es necesario suponer que la escolaridad \(S_i\) es exógena, esto es:

\[Cov(A_i,S_i)=0\]

¿Por qué podría no cumplirse el supuesto?

  • Es probable que el nivel de escolaridad se determine en forma óptima, y que dependa de la habilidad (no observada) \(A_i\) y de otros factores, resumidos en \(\nu_i\), por lo tanto:

\[S_i = S(A_i,\nu_i)\]

  • Variable omitida: Si la escolaridad depende de \(A_i\), entonces \(Cov(S_i,A_i)\neq 0\).

    • Es posible que personas con \(A_i\) alto tengan un costo de oportunidad alto de educarse (tienen que sacrificar mayores ingresos) y que por lo tanto se eduquen menos.

    • También es posible que personas con mayor habilidad tengan mayores facilidades para estudiar y que por esto elijan estudiar durante más años

    • El sesgo podría ir en cualquier dirección

  • Causalidad inversa: No debiéramos ver un efecto retroactivo desde los ingresos hacia la escolaridad, por lo que la causalidad inversa no debería ser un problema en este caso.

  • Lo que necesitamos es una fuente de variación exógena… alguna variable que afecte a \(x_i\), pero que no se relacione con \(\varepsilon_i\)

  • Supongamos por ejemplo que tenemos una variable \(Z_i\) que afecta a \(S_i\) pero no está correlacionada con \(A_i\)

Es decir:

  • \(Cov(Z_i, S_i)\neq0\)
  • \(Cov(Z_i, A_i)=0\)

Estimador de variables instrumentales

¿Cuál es la covarianza entre \(Y_i\) y \(A_i\)? \[Cov(Y_i,Z_i) = Cov(\alpha +\beta S_i + \gamma A_i + \varepsilon_i, Z_i)= \beta\cdot Cov(S_i, Z_i)+ \gamma\cdot\underset{=0}{\underbrace{Cov(A_i,Z_i)}}=\beta\cdot Cov(S_i, Z_i)\]

De modo que \[\hat \beta_{IV} = \frac{Cov(Y_i,Z_i)}{Cov(S_i,Z_i)} = \beta\]

Supuestos de identificación

Relevancia o First Stage: un instrumento es relevante si efectivamente tiene un efecto sobre la variable endógena \(S_i\). \[Cov(S_i, Z_i)\neq0\]

Este supuesto es necesario para que \(\frac{Cov(y_i,z_i)}{Cov(s_i,z_i)}\) esté definido.

Restricción de exclusión: Este supuesto requiere que el instrumento \(Z_i\) no afecte directamente el outcome \(Y_i\), sino solo por medio de afectar la variable endógena \(S_i\).

Este es un supuesto acerca de la relación entre una variable observada \((Z_i)\) y una variable no observable \((A_i)\). Como tal, no es posible testearlo.

Para defender la validez del instrumento es necesario recurrir a argumentos teóricos (no empíricos).

Independencia

SUTVA: los resultados potenciales de cada persona i no están relacionados con el estado de tratamiento de otros individuos.

Monotonicidad: la variable instrumental opera (débilmente) en la misma dirección en todas las unidades individuales.

Mínimos cuadrados en 2 etapas (2SLS)

El estimador de variables instrumentales lo podemos escribir como: \[\hat \beta_{IV}=\frac{Cov(Y_i,Z_i)}{Cov(S_i,Z_i)} = \frac{Cov(Y_i,Z_i)/Var(Z_i)}{Cov(S_i,Z_i)/Var(Z_i)}= \frac{\hat \beta_{ols}^{y,z}}{\hat \beta_{ols}^{s,z}}\] - Es decir, el estimador de IV es igual a la división entre:

  • El estimador OLS de una regresión de \(Y_i\) en \(Z_i\) (forma reducida)
  • El estimador de OLS de una regresión de \(S_i\) en \(Z_i\) (primera etapa)

Cuando tenemos un único instrumento, \(\hat\beta_{IV}\) es equivalente al estimador de 2SLS: \[\hat \beta_{IV} = \frac{Cov(Y_i,Z_i)}{Cov(S_i,Z_i)}=\frac{Cov(Y_i,\hat S_i)}{Var(\hat S_i)}=\hat \beta_{2SLS},\]

Donde \(\hat S_i\) es el valor predicho de \(S_i\) en base a una regresión OLS de \(S_i\) en \(Z_i\): \[\hat s_i = \hat\pi_0+\hat\pi_1 z_i,\quad \hat\pi_1=\frac{Cov(s_i,z_i)}{Var(z_i)}\]

  • Es decir, \(\hat \beta_{2SLS}\) es el estimador de mínimos cuadrados de una regresión de \(Y_i\) en la predicción \(\hat S_i\)

2SLS ayuda a entender la lógica de IV

El estimador de IV es equivalente a estimar por OLS una regresión entre \(Y_i\) y el valor predicho de \(S_i\) en base al instrumento \(Z_i\):

  • En la primera etapa, estimamos el efecto causal de \(Z_i\) sobre \(A_i\).

  • Luego, usamos el valor predicho de \(S_i\) para en una segunda etapa estimar del efecto de \(\hat S_i\) sobre \(Y_i\).

  • \(\hat S_i\) es una predicción hecha a partir de una variable exógena \(Z_i\), por lo que está “limpia” de endogeneidad y por eso podemos usarla para estimar el efecto de \(S_i\) sobre \(Y_i\).

En otras palabras, usamos una parte exógena de la variación en \(S_i\) para identificar el efecto de \(S_i\) sobre \(Y_i\).

Palabras finales

Queremos expresar nuestro más sincero agradecimiento por su asistencia y activa participación en el Workshop MIMIS-WKs 2024. Su entusiasmo, compromiso y valiosas contribuciones hicieron de este encuentro un espacio enriquecedor para el intercambio de ideas y el aprendizaje colaborativo.

Tanto en el Magíster en Métodos para la Investigación Social y en el Diplomado en Métodos Cuantitativos para la Investigación Social se profundizan en estas y otras cosas más. ¡Nos vemos en otra oportunidad!